On the worst-case analysis of temporal-difference learning algorithms
نویسندگان
چکیده
منابع مشابه
the effect of traffic density on the accident externality from driving the case study of tehran
در این پژوهش به بررسی اثر افزایش ترافیک بر روی تعداد تصادفات پرداخته شده است. به این منظور 30 تقاطع در شهر تهران بطور تصادفی انتخاب گردید و تعداد تصادفات ماهیانه در این تقاطعات در طول سالهای 89-90 از سازمان کنترل ترافیک شهر تهران استخراج گردید و با استفاده از مدل داده های تابلویی و نرم افزار eviews مدل خطی و درجه دوم تخمین زده شد و در نهایت این نتیجه حاصل شد که تقاطعات پر ترافیک تر تعداد تصادفا...
15 صفحه اولthe effect of consciousness raising (c-r) on the reduction of translational errors: a case study
در دوره های آموزش ترجمه استادان بیشتر سعی دارند دانشجویان را با انواع متون آشنا سازند، درحالی که کمتر به خطاهای مکرر آنان در متن ترجمه شده می پردازند. اهمیت تحقیق حاضر مبنی بر ارتکاب مکرر خطاهای ترجمانی حتی بعد از گذراندن دوره های تخصصی ترجمه از سوی دانشجویان است. هدف از آن تاکید بر خطاهای رایج میان دانشجویان مترجمی و کاهش این خطاها با افزایش آگاهی و هوشیاری دانشجویان از بروز آنها است.از آنجا ک...
15 صفحه اولthe effect of explicit teaching of metacognitive vocabulary learning strategies on recall and retention of idioms
چکیده ندارد.
15 صفحه اولAnalysis of Temporal-Difference Learning
We present new results about the temporal-difference learning algorithm, as applied to approximating the cost-to-go function of a Markov chain using linear function approximators. The algorithm we analyze performs on-line updating of a parameter vector during a single endless trajectory of an aperiodic irreducible finite state Markov chain. Results include convergence (with probability 1), a ch...
متن کاملAlgorithms for Fast Gradient Temporal Difference Learning
Temporal difference learning is one of the oldest and most used techniques in reinforcement learning to estimate value functions. Many modifications and extension of the classical TD methods have been proposed. Recent examples are TDC and GTD(2) ([Sutton et al., 2009b]), the first approaches that are as fast as classical TD and have proven convergence for linear function approximation in onand ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: Machine Learning
سال: 1996
ISSN: 0885-6125,1573-0565
DOI: 10.1007/bf00114725